(网经社讯)最近看到黄奇帆教授在第三届外滩金融峰会上关于数据治理的发言,系统地论述了其对数据权利和数据交易有关规则的思考,很受启发。虽然我并不认同黄教授的大部分观点,但也不得不佩服黄教授作为一个非法律专业人士对数据治理这一全新领域的系统性思考。同时这事也促使我尽快抛出自己对数据治理法律问题的解决方案,供大家讨论。
之所以我将这篇文章命名为“基本逻辑”,就是觉得在这一全新领域,很多最底层的概念和原理还没有分析清楚或者达成基本的共识,而这些会构成我们讨论数据权利、数据交易和权利归属的前提。这些概念和原则至少应该包括:
数据治理的概念、数据的概念、数据的基本特性,等等。
首先,关于数据治理的概念,可以有两种,黄教授的文章里所说的数据治理,指的大概是第一种,即治理数据和治理数据产业。包括数据立法和数据产业立法等,《个人信息保护法》、《数据安全法》等都在这一层次里,我个人也倾向于把数据治理限定在这一层次讨论。
另一种概念则是利用数据实施治理,这个范围就很广了,可以理解为治理的数据化和信息化,是治理现代化的核心或重要组成部分。这里即包含对数字经济和社会的治理,也包括对实体经济和社会的治理。
其次,关于数据的概念,又可以有三种,第一种过于大,第二种过于小,第三种比较合适,但也有一定的局限性。
第一种,广义的数据基本等同于信息,泛指所有的信息或资料,在这一层次,你也可以把个人数据和个人信息划等号。
比如,在百度词条中有这样的描述:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。也就是说,这里所引用的数据的概念,基本就是等同于信息和资讯的。
第二种,狭义的数据专指数字类信息,也就是我们对数据这一概念最本能和原始的反应。
《汉语大辞典》中对数据的定义是:数据shùjù〖data〗:科学实验、检验、统计等所获得的和用于科学研究、技术设计、查证、决策等的数值。相比于数字类信息,由于限定了使用范畴,显然这一定义的范围更狭窄。
第三种,指的是数字化的信息,即网络空间以二进制代码存在的所有信息,即这一层次的数据概念等同于网络信息。
在计算机科学中,数据的定义是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的统称。
我国《数据安全法》中的定义,基本也是这个意思。其第三条明确规定:“本法所称数据,是指任何以电子或者其他方式对信息的记录。”
按照这一定义,我国的《数据安全法》可以理解为专门针对线上的,不能囊括线下数据安全。你也可以把它理解为“网络数据安全法”。
最后,顺便提一下大数据的概念,因为很多的政策文件,包括《数据安全法》里都引用了。在我的定义里,其实大数据更接近于一种全新的方法论,而不在于数据本身,只有顺着这个思路才可能正确理解大数据。即大数据等于“全数据+笨办法”。当然,这是阿拉木斯版的定义。
而在维基百科中,对大数据的定义是:在信息技术中,大数据是指一些使用目前数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。在维克托·迈尔-舍恩伯格编写的《大数据时代》 中,大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。
关于数据的基本特性,也就是本文的主体部分。
在分析这部分时我们需要说明两个大的前提:第一个就是涉及国家安全的数据问题的除外,我们本文里只讨论民商事和行政管理领域与数据有关的问题;第二个前提是线上线下一体化原则,虽然很多问题是从线上出发的,但我们尽量囊括线下的各种应用场景,避免造就线下数据法律问题讨论的盲区。
简单地说,我认为,讨论数据权利、权利归属等所有问题,都应该从论证清楚数据的基本特性出发,才有意义,才可能站得住脚。数据的基本特性就是数据的“三性”,我概括为:细碎和附随性、生成复杂性、功能多样性。
提到三性,了解知识产权法律的人士会非常熟悉,我国著作权法中规定的著作权的三个基本特性是:独创性、可复制性、合法性。而我国专利法中对专利权三个基本特性的定义则是:新颖性、创造性和实用性。我们可以毫不夸张地说,我国法律中著作权和专利权的相关权利和规则都是在这两个“三性”的基础上搭建的。
关于细碎和附随性。数据的细碎性是显而易见的,狭义的数据是信息的最小单元,就像物理世界里的原子。不管是1、2、3这样的最简单的阿拉伯数字还是0、1这样的二进制代码,都是所有信息里最基础和简单的元素。但这一特性带来的法律问题可能是很多人没有想到的,那就是,我们对这些信息元素的保护水平不可能太高,比如,不应该高于由大量这些元素组成的、门槛更高的知识产权。因为如果我们对数据的保护水平高于知识产权,就会影响知识产权的申请和保护,所有人都会算这个帐:既然我只要利用没有任何门槛的数据保护机制就可以享受更高的保护,我还干嘛费那么大的劲去申请专利、商标、著作权呢?
概括一下,就是在法律这门科学里,我们不仅要考虑各种权益的保护问题,更要从更高更全面的角度研究保护与保护之间可能的各种冲突,这样才可能建立真正有效且多赢的制度机制。
由于细碎和附随这两个特点关联性很强,我就把它们放在了一起,作为一个特征描述。所谓附随,当然不是绝对的,但绝大多数数据基本都是附随某一个活动产生的,比如我们的交易数据、医疗数据、健身数据、聊天数据、共享单车骑行数据,等等。我们从事这些活动,目的不是为了获得这些林林总总、如影随形的数据,而是要实现交易、治疗、健身、沟通和出行,数据的生成只是副产品。
既然逻辑是这样,那就不能喧宾夺主。我们很可能愿意为了得到更好的交易、治疗和健身、沟通、出行的服务而让渡使用和分析我们数据的权利,这个要尊重个人的意愿和选择,而不可以因为有高大上的法律在上而本末倒置,这样的本末倒置只会让我们的数字经济和服务倒退。
关于生成复杂性。
即数据的生成是多样化的,我们个人创造的数据当然是最清晰明确的,比如我们的姓名、我们的微信名和头像等,但问题是绝大多数数据都不是这样,比如我们的身份证号码、银行账号,是系统生成的,交易记录虽然是我们贡献的,但也是基于系统设定生成的,驾驶记录、信用记录等则也是基于我们的行为和系统设置生成的。
在知识产权权利归属领域,比如一本张三写的我的传记的作品,当然编写和公开都需要经过我的认可,但著作权权利归属肯定是张三而不是我。这可能成为我们确定数据权利归属的参考机制之一。
这里我们顺带谈一下数据交易的问题。即黄奇帆教授提出的,“平台应该把数据交易收益的20%到30%返还给数据的生产者”的问题。且不说这个数据生产者到底是谁,我们都知道,在我们现在的法律环境下,交易原始数据的法律风险极高,正规的企业应该不会去做这样的事情,交易的一般都是衍生数据或分析数据等,一旦衍生数据成为匿名化数据,就脱离了我国《个人信息保护法》治理的范畴,所以这种返还的提法是有违行业常识的。
随着《个人信息保护法》、《数据安全法》的出台和实施,加上之前的《网络安全法》,我们对数据保护的水平应该是很高的,在国际范围内基本是这样。这些法律都要求数据收集、加工、处理、转移和超范围使用等独立地告知用户且获得用户同意,这样可能会带来一个新的问题是,用户会被一个商家不断地告知是否同意,不厌其烦,反而成了一种新的骚扰。权益的保护可能确实是好事,但好事也有度,法律追求的应该是恰当的保护,保护的平衡,而不是极致的保护,极致的保护只会适得其反。
最近我就发现,在那些以前上过的网页再次填写输入过的数据时,以前自动显示曾经输入内容的变得少了,不得不使用一次就重复输入一次。信息被记录的次数少了,安全性可能是提高了,但便捷性却大幅下降了。
关于功能多样性。
就拿数据中的个人数据而言,通过多年的观察,我把个人数据分为五类:个人特征数据、个人记录数据、复合型数据、个人生物特征数据、功能型个人数据。每一类数据其中蕴含的权利、权利的归属和保护的模式可能会有很大的差别,如果简单套用统一的的模式和规定,反而会出问题。
第一类说是个人数据,其实是指向个人的数据,个人不一定拥有对这个数据的决定权,这个数据也基本不是我们本人创造的,我们可以称其为个人特征数据。比如我们的地址、邮箱、电话号码、身份证信息、银行账号、车牌号、信用记录,等等。这也是我们通常认识上最接近于我们理解的个人数据的一类。其实这些个人数据都是指向你这个物理的肉身的,但这不等于你拥有法律上对这些信息完全的所有权,包括修改、删除的权利。法律之所以这么规定,有的是出于保护其他权益的需要,有的是出于公平合理的需要,有的是出于社会管理的需要。
第二类是我们本人创造的数据,这类数据整体上是偏向于知识产权的,我们可以称其为个人记录数据。比如我们的聊天记录,我拍的照片、我写的文章等。这里面如果够得上知识产权,如作品等,则与知识产权等权利形成一种竞合,如果构不成,则仅仅是作为个人数据处理和保护。
第三类是个人使用有关工具创造的数据,比如骑行共享单车的数据,开车的各种记录,使用手机和电脑的记录,等等,这些信息具有一定的客观性,与个人特征的关联性最小。我们可以称其为复合型数据。
第四类是我们的个人生物特征数据,这一类是偏向于人身权的。比如我们的肖像、指纹、声波、虹膜特征、基因排序等;第五类是功能型个人数据,就是我们设置的密码、电子签名等,数据本身是没有意义的,数据的存在是为了实现某种特定的功能。
这样分析下来,其实我们对每一类个人数据保护的侧重点可能都是不一样的。对于第一类数据,个人并没有什么修改权,法律也不应该支持这种修改,除非存在错误;而第二类则完全不同,个人拥有完全的修改权,就像我们的微信头像,我们想换就可以换。对于最后一类数据,我们的密码等,保护的重点应该是不被披露和关联,而且应该是强保护;而对于生物特征数据,比如我们的脸部特征等,由于我们每天都在进行自我披露,所以保护的重点则是不被非法收集和滥用。
最后,我们说,不管是什么样的权利,简单地谈保护往往是没有意义的,关键点和难点在于权利和义务的平衡、权利和权利之间的平衡、保护的度的恰到好处的把握,过犹不及。作为一种十分特殊的,完全脱离我们以前基于实物世界权利认知的,存在于虚拟空间的数据,在这方面就更加特殊。一定不能将你在物理世界里对你的茶杯和现金拥有的所有权的认知简单地搬到这里来,这也是黄教授的理论出现错误的根本原因。
就像我们无法将我们个人数据之一的银行存款随意加一个零,不能随意删除我们的交通违章记录一样,那些趁《个人信息保护法》实施之际鼓吹什么”我的信息我做主”的说法,我只想对他说:“你想多了”。